【R模型】R语言线性回归之简单线性回归模型 (一)

您所在的位置:网站首页 r语言 回归 【R模型】R语言线性回归之简单线性回归模型 (一)

【R模型】R语言线性回归之简单线性回归模型 (一)

2023-06-04 20:40| 来源: 网络整理| 查看: 265

💂 个人信息:酷在前行👍 版权: 博文由【酷在前行】原创、需要转载请联系博主👀 如果博文对您有帮助,欢迎点赞、关注、收藏 + 订阅专栏🔖 本文收录于【R模型】,该专栏主要介绍R语言各类型机器学习,如线性回归模型、广义线性模型、混合线性模型、随机森林模型、支持向量机模型、决策树模型等。请大家多多关注点赞和支持,共同进步~ 欢迎大家订阅!

📋 文章目录 🐣 一、线性回归的介绍🐤 二、线性回归的R语言实例  🍎 1. 数据读取及探索  🍎 2. 简单线性回归模型 (Simple linear regression model)    2.1 单个输入和输出之间的线性关系    2.2 最小化误差    2.3 确定最佳拟合    2.4 评估模型的拟合程度    线性回归是统计学家最早提出的学习方法之一,也是最容易理解的方法之一。尽管它很简单(实际上正是因为它简单),但在许多情况下它都是一个非常强大的工具。线性回归通常是在给定问题上试验的第一种方法,它可以立即给出一个基准,用来判断其他更复杂的建模技术的效果。考虑到解释的简单性,大家更会选择线性回归模型而不是更复杂的方法,即使这些方法的拟合效果稍好。

🐣 一、线性回归的介绍

线性回归,又称普通最小二乘线性回归或简称OLS回归,是由数学家高斯和勒让德在19世纪初左右独立发展起来的,至今仍有关于谁应该为其发现负责的争论。然而,在它被发现的时候,它实际上并不被称为“回归”‍。这个词在弗朗西斯·高尔顿(Francis galton)的作品之后变得更加流行。高尔顿是英国知识分子中的多面手,也是查尔斯·达尔文的表亲。19世纪晚期,高尔顿研究了近1000名儿童的身高与其父母平均身高(父母中等身高)之间的关系。他惊讶地发现,孩子的身高和父母的平均身高之间并没有完美的关系,一般来说,孩子的身高更有可能在一个接近总体平均身高的范围内。他将这种统计现象描述为“向平庸的回归”(“回归”来自一个拉丁语术语,近似于“回到过去”)。

图1 是高尔顿数据的散点图,黑色实线表示完美的关系,黑色虚线表示儿童平均身高,红色虚线表示Galton17确定的实际关系。你可以把红色虚线视为完美关系的“倒退”(用黑线表示)。这可能会给你一种直觉,有助于你理解本章后面的内容。在任意数据集中,红色虚线可以位于黑色虚点线(没有关系)和黑色实线(完美关系)之间的任何位置。线性回归是指在数据中找到红色虚线,并用它来解释输入数据(x轴)对结果数据(y轴)的解释程度。 在这里插入图片描述

 图1 高尔顿对儿童身高的研究引入了“回归”这个术语

🐤 二、线性回归的R语言实例

线性回归特别适用于我们感兴趣的结果在某种连续尺度上的问题(例如数量、金钱、身高、体重)。对于这种类型的结果,它可以是尝试更复杂的建模方法之前的第一站。线性回归简单且易于解释,分析师通常会接受拟合较差的线性回归,以避免解释更复杂的模型。 下面是一些可以用线性回归方法解决的问题:

给定一组人口统计数据、工作数据和当前工资数据,剩余的数据能在多大程度上解释当前工资?给定一组学生在四年期间的年度考试成绩,最终考试成绩和早期考试成绩之间的关系是什么?给定一组GPA数据、SAT数据和一组求职者的能力倾向测试百分位分数数据,GPA和SAT数据能在多大程度上解释能力倾向测试分数?

你在一家提供四年制本科学位的大型学术机构的生物系担任分析师。本系的学术领导感兴趣的是了解学生在学位课程期末考试中的表现与前三年的表现之间的关系。为了解决这个问题,我们为您提供了过去三年975名毕业生的数据,并要求您创建一个模型,根据每个人在项目前三年的考试成绩来解释每个人的期末考试成绩。第一年的考试分数是0-100分,第二年和第三年的分数是0-200分,最后一年的分数是0-300分。我们将把ugtests数据集加载到会话中,并简要地看一下它。

  🍎 1. 数据读取及探索 # 下载数据 url


【本文地址】


今日新闻


推荐新闻


CopyRight 2018-2019 办公设备维修网 版权所有 豫ICP备15022753号-3